Recent studies have shown that using an external Language Model (LM) benefits the end-to-end Automatic Speech Recognition (ASR). However, predicting tokens that appear less frequently in the training set is still quite challenging. The long-tail prediction problems have been widely studied in many applications, but only been addressed by a few studies for ASR and LMs. In this paper, we propose a new memory augmented lookup dictionary based Transformer architecture for LM. The newly introduced lookup dictionary incorporates rich contextual information in training set, which is vital to correctly predict long-tail tokens. With intensive experiments on Chinese and English data sets, our proposed method is proved to outperform the baseline Transformer LM by a great margin on both word/character error rate and tail tokens error rate. This is achieved without impact on the decoding efficiency. Overall, we demonstrate the effectiveness of our proposed method in boosting the ASR decoding performance, especially for long-tail tokens.
translated by 谷歌翻译
Conventional cameras capture image irradiance on a sensor and convert it to RGB images using an image signal processor (ISP). The images can then be used for photography or visual computing tasks in a variety of applications, such as public safety surveillance and autonomous driving. One can argue that since RAW images contain all the captured information, the conversion of RAW to RGB using an ISP is not necessary for visual computing. In this paper, we propose a novel $\rho$-Vision framework to perform high-level semantic understanding and low-level compression using RAW images without the ISP subsystem used for decades. Considering the scarcity of available RAW image datasets, we first develop an unpaired CycleR2R network based on unsupervised CycleGAN to train modular unrolled ISP and inverse ISP (invISP) models using unpaired RAW and RGB images. We can then flexibly generate simulated RAW images (simRAW) using any existing RGB image dataset and finetune different models originally trained for the RGB domain to process real-world camera RAW images. We demonstrate object detection and image compression capabilities in RAW-domain using RAW-domain YOLOv3 and RAW image compressor (RIC) on snapshots from various cameras. Quantitative results reveal that RAW-domain task inference provides better detection accuracy and compression compared to RGB-domain processing. Furthermore, the proposed \r{ho}-Vision generalizes across various camera sensors and different task-specific models. Additional advantages of the proposed $\rho$-Vision that eliminates the ISP are the potential reductions in computations and processing times.
translated by 谷歌翻译
最新的(SOTA)表面正常估计器(SNES)通常以端到端的方式将深度图像转化为表面正常地图。尽管这样的SNE极大地降低了效率和准确性之间的权衡,但它们在空间不连续性(例如边缘和山脊)上的表现仍然不令人满意。为了解决这个问题,本文首先引入了一种新型的多向动态编程策略,以最大程度地减少(路径)平滑度能量来适应性地确定嵌入式(共平面3D点)。然后,可以使用新型的递归多项式插值算法对深度梯度进行迭代进行完善,这有助于产生更合理的表面正常状态。我们引入的空间不连续性意识(SDA)深度梯度改进策略与任何深度到正常的SNE都兼容。我们提议的SDA-SNNE的性能要比所有其他SOTA方法,尤其是在空间不连续性附近/方面都要高得多。我们进一步评估了SDA-SNE在不同的迭代方面的性能,结果表明它仅在少量迭代后会快速收敛。这样可以确保其在需要实时性能的各种机器人技术和计算机视觉应用中的高效率。具有不同随机噪声的数据集上的其他实验进一步验证了我们的SDA-SNE的鲁棒性和环境适应性。我们的源代码,演示视频和补充材料可在mias.group/sda-sne上公开获得。
translated by 谷歌翻译
许多学科的动力系统被建模为相互作用的粒子或试剂,其相互作用规则取决于非常少量的变量(例如,成对距离,相位的成对差异,等等),这是代理对状态的函数。然而,这些相互作用规则可以产生自组织的动力学,并具有复杂的新兴行为(聚类,羊群,蜂群等)。我们提出了一种学习技术,鉴于沿着代理轨迹的状态和速度的观察,它以非参数方式产生了相互作用内核所依赖的变量和相互作用内核本身。这产生了有效的尺寸降低,从而避免了高维观测数据(所有试剂的状态和速度)的维度诅咒。我们证明了我们的方法对各种一阶交互系统的学习能力。
translated by 谷歌翻译
可变形的模型对于3D面的统计建模至关重要。以前的可变形模型的作品主要集中在大规模的面部几何形状上,但忽略了面部细节。本文通过学习一种结构含义的可编辑形态模型(SEMM)来增强形象模型。 SEMM基于皱纹线的距离字段引入了细节结构表示,并以细节位移进行建模,以建立更好的对应关系并实现对皱纹结构的直观操纵。此外,SEMM还引入了两个转换模块,以将表达式的融合体权重和年龄值转化为潜在空间的变化,从而在维持身份的同时可以有效的语义细节编辑。广泛的实验表明,所提出的模型紧凑地表示面部细节,在定性和定量上表达动画中的先前方法,并实现了面部细节的有效年龄编辑和皱纹线编辑。代码和模型可在https://github.com/gerwang/facial-detail-manipulation上找到。
translated by 谷歌翻译
伤口图像分割是伤口临床诊断和时间治疗的关键成分。最近,深度学习已成为伤口图像分割的主流方法。但是,在训练阶段之前,需要进行伤口图像的预处理,例如照明校正,因为可以大大提高性能。校正程序和深层模型的训练是彼此独立的,这导致了次优的分割性能,因为固定的照明校正可能不适合所有图像。为了解决上述问题,本文提出了一种端到端的双视分段方法,通过将可学习的照明校正模块纳入深度细分模型中。可以在训练阶段自动学习和更新模块的参数,而双视融合可以完全利用RAW图像和增强图像的功能。为了证明拟议框架的有效性和鲁棒性,在基准数据集上进行了广泛的实验。令人鼓舞的结果表明,与最先进的方法相比,我们的框架可以显着改善细分性能。
translated by 谷歌翻译
尽管做出了巨大的努力,但GigapixelS的分类全扫描图像(WSI)被严重限制在整个幻灯片的约束计算资源中,或者使用不同尺度的知识利用有限。此外,以前的大多数尝试都缺乏不确定性估计的能力。通常,病理学家经常共同分析不同的宏伟速度的WSI。如果通过使用单个放大倍率来不确定病理学家,那么他们将反复更改放大倍率以发现组织的各种特征。受病理学家的诊断过程的激励,在本文中,我们为WSI提出了一个可信赖的多尺度分类框架。我们的框架利用视觉变压器作为多部门的骨干,可以共同分类建模,估计显微镜的每种放大倍率的不确定性,并整合了来自不同放大倍率的证据。此外,为了利用WSIS的歧视性补丁并减少对计算资源的需求,我们建议使用注意力推广和非最大抑制作用提出一种新颖的补丁选择模式。为了从经验研究我们的方法的有效性,使用两个基准数据库对我们的WSI分类任务进行了经验实验。获得的结果表明,与最先进的方法相比,可信赖的框架可以显着改善WSI分类性能。
translated by 谷歌翻译
本文的目的是通过应用深度学习方法作为计算最佳资本分配策略的工具来研究系统性风险措施的新方法学框架。在这个新框架下,可以将系统性风险措施解释为通过在汇总单个风险之前将资本分配给单个机构来确保总体机构确保汇总系统的最低现金。除了在非常有限的情况下,此问题没有明确的解决方案。深度学习在财务模型和风险管理中越来越受到关注,我们建议我们基于深度学习的算法解决风险措施的原始问题和双重问题,从而学习公平的风险分配。特别是,我们的双重问题方法涉及受众所周知的生成对抗网络(GAN)方法的启发,以及对radon-Nikodym衍生产品的新设计的直接估计。我们通过对该主题进行大量数值研究结束了论文,并提供了与系统性风险措施相关的风险分配的解释。在指数偏好的特定情况下,与最佳显式溶液作为基准相比,数值实验表明了所提出的算法的出色性能。
translated by 谷歌翻译
深神经网络(DNN)是医疗应用中有前途的工具。但是,由于通信的能源成本很高,因此在电池供电设备上实施复杂的DNN是具有挑战性的。在这项工作中,开发了卷积神经网络模型,用于检测心电图(ECG)信号的房颤。该模型表明,尽管接受了有限的可变长度输入数据训练,但表现出了高性能。重量修剪和对数定量合并以引入稀疏性并降低模型大小,可以利用这些稀疏性,以减少数据移动和降低计算复杂性。最终模型达到了91.1%的模型压缩率,同时保持高模型精度为91.7%,损失小于1%。
translated by 谷歌翻译
近年来,异构图形神经网络(HGNNS)一直在开花,但每个工作所使用的独特数据处理和评估设置会让他们的进步完全了解。在这项工作中,我们通过使用其官方代码,数据集,设置和超参数来展示12个最近的HGNN的系统再现,揭示了关于HGNN的进展的令人惊讶的结果。我们发现,由于设置不当,简单的均匀GNN,例如GCN和GAT在很大程度上低估了。具有适当输入的GAT通常可以匹配或优于各种场景的所有现有HGNN。为了促进稳健和可重复的HGNN研究,我们构建异构图形基准(HGB),由具有三个任务的11个不同数据集组成。 HGB标准化异构图数据分割,特征处理和性能评估的过程。最后,我们介绍了一个简单但非常强大的基线简单 - HGN - 这显着优于HGB上以前的所有模型 - 以加速未来HGNN的进步。
translated by 谷歌翻译